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摘 要 : 


[ 目的 /意义 ] 探 索 构 建 中 国 历代 存世 典籍 知识 图 谱 , 以 为 研究 者 挖 握 海 量 古 籍 书目 数据 背后 隐藏 的 知识 提供 一 站 
式 平台 ,拓展 古籍 知识 服务 内 涵 , 同 时 ,大 规模 的 典籍 知识 图 谱 也 是 机 器 智能 的 重要 基础 。[ 方 法 /过 程 ] 通 过 知识 
图 谱 技 术 对 中 国 历代 存世 典籍 进行 知识 组 织 , 从 需求 层 、 模 型 层 、 应 用 层 3 部 分 构建 一 个 典籍 知识 图 谱 框 架 模 型 ， 
通过 人 机 协作 进行 典籍 数据 抽取 及 多 源 数 据 融 合 ,完成 数据 的 整理 ,并 对 典籍 知识 图 谱 实 体 类 型 及 属性 、 典 籍 知 
识 图 谱 实体 关系 及 类 型 进行 分 析 与 定义 。[ 结果 /结论 ] 所 构建 的 典籍 知识 图 谱 包 含 649 549 种 古籍 实体 、221 783 
位 典籍 责任 者 .1 498 383 个 古籍 版 本 、13 960 个 地 名 节点 ,形成 了 一 个 立体 、 多维、 多 用 途 的 古籍 知 识 关联 网 络 , 对 
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知识 组 织 ” 知 识 图 谱 人文 研 究 


全 球 目前 存世 的 主要 中 国 历 代 典 籍 书目 信息 进行 了 较 全 面 描述 。 
数字 人 文 


能 地 反馈 给 用 户 其 所 需 的 典籍 基本 信息 和 扩展 信 
息 。 典 籍 知识 图 谱 成 为 中 国 古 籍 文献 研究 平台 的 重要 


) 占 籍 目录 是 一 笔 宝 贵 财富, 也 是 引导 我 们 打开 我 


组 成 部 分 ,也 为 数字 文献 学 的 研究 提供 了 基础 数据 , 建 


国 窗 代 文化 遗产 宝库 的 一 把 钥匙 ,古籍 目录 也 是 文 
献 滁 的 重要 组 成 部 分 , 随 着 古籍 数字 化 大 潮 来 临 ,古籍 
文 矶 的 载体 开始 由 原来 的 实物 形态 转换 成 以 电子 为 载 
体 SEJ 以 检索 的 数字 形态 ,古籍 目录 的 开发 与 利用 过 程 
中 已 在 尝试 采用 新 的 信息 技术 。 我 国 的 目录 学 历史 修 
久 6 焦 统 目录 学 ,文献 学 面临 着 前 所 未 有 的 冲击 与 挑 
战 ,古籍 数字 化 更 新 了 传统 文献 学 的 概念 和 内 涵 中 ,新 
数字 化 环境 下 出 现 了 数字 文献 学 理念 ,提出 了 建立 
数字 目录 学 的 要 求 。 建 立 数字 目录 是 保护 和 弘扬 中 华 
文明 的 需要 ,用 户 可 以 完整 系统 地 了 解 中 华文 明 发 展 


立 中 国 存世 典籍 知识 图 谱 是 古籍 知识 服务 的 基础 ,可 
为 中 国 古籍 文献 .历史 学 、 哲 学 和 语言 学 等 领域 的 研究 
人 员 提 供 有 效 的 帮助 。 


2 典籍 目录 知识 化 开发 与 利用 现状 


典籍 目录 整理 及 索引 是 早期 典籍 开发 的 主要 形 
式 《 中 国 古 籍 总 目 兴 中 国 古 籍 善本 书目 》 是 典型 代 
表 , 随 着 计算 机 技术 的 发 展 ,数字 化 典籍 目录 及 索引 成 
为 研究 的 主要 方向 ,不 少 学 者 做 了 有 益 的 探索 ,此 
外 ,国际 上 也 有 不 少 针对 中 华 典 籍 的 相关 研究 。 在 数 


的 脉络 ,古籍 目录 的 开发 也 迎合 了 新 的 文献 整理 与 研 
究 者 的 需要 。 典 籍 知识 图 谱 是 古籍 数字 化 的 重要 组 成 
部 分 ,是 为 了 适应 新 信息 环境 而 设计 的 一 种 语义 知识 
组 织 和 服务 模式 , 它 通 过 对 典籍 知识 结构 进行 描述 、 揭 
示 和 表达 ,实现 古籍 知识 管理 和 知识 发 现 的 目标 ,满足 
不 同 用 户 对 知识 表达 和 知识 呈现 的 不 同 需求 ,从 而 更 


字 化 典籍 目录 开发 与 利用 中 ,典籍 知识 化 是 一 项 重要 
的 内 容 , 何 琳 等 ”、 罗 晨光 等 ”提出 了 基于 本 体 的 古籍 
知识 建设 ,开始 语义 化 、 知 识 化 的 尝试 。2009 年 ,北京 
大 学 与 国家 图 书馆 所 开发 的 《中 国 历代 典籍 总 目 分 析 
系统 ) 做 了 有 意义 的 尝试 ,开发 了 具有 划时代 意义 的 古 
籍 文献 目录 知识 服务 系统 “ 。《 中 国 历代 典籍 总 目 
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分 析 系 统 》 与 传统 的 古籍 目录 应 用 相 比 取得 了 非常 大 
的 进步 ,但 其 中 也 存在 不 少 遗 憾 ,其 构建 的 典籍 知识 单 
元 还 有 所 欠缺 ,虽然 具有 责任 者 .责任 行为 .版 本 特征 
以 及 装帧 特征 等 多 种 维度 的 相关 性 分 析 功 能 ,但 由 于 
缺乏 时 间 、 空 间 及 各 元 素 之 间 的 关联 数据 支持 ,比如 关 
键 的 编撰 者 信息 缺乏 ,而 无 法 从 更 多 维度 进行 分 析 , 数 
据 颗 粒度 也 较 大 ,难以 进行 更 精细 化 的 分 析 , 使 得 分 析 
应 用 功能 有 一 定 的 局 限 性 。 因 此 ,有 必要 通过 扩充 与 
古籍 相关 联 的 人 物 信 息 .时 间 、 地 名 等 知识 ,把 不 同类 
型 不同 颗粒 度 的 古籍 文献 内 容 关联 、 整 合 和 集聚 起 
来 ,建立 古籍 知识 关联 网 络 ,实现 古籍 知识 存储 ,编辑 、 
标 引 .知识 挖掘 和 知识 发 现 等 功能 ,满足 古籍 内 容 价 值 
深度 挖掘 和 再 创造 需求 "" ,以 进一步 发 现 古 籍 内 在 的 
隆 权 知识 ,使 传统 的 古籍 内 容 大 大 增值 
AU 在 典籍 的 “ 辨 章 学 术 , 考 镜 源流 ”功能 开发 研究 中 
区 9 和 不 少 学 者 做 了 尝试 , 宋 登 汉 等 利用 RDA 体系 从 规 
深 = 书 目 .馆藏 三 个 层次 来 设计 古籍 版 本 资源 的 整体 描 
述 以 期 在 古籍 版 本 资源 的 描述 上 实现 考证 知识 聚 类 
项 缘 ”” 。 邓 仲 华 等 使 用 本 体 库 的 构建 技术 针对 十 
籍 而 本 知识 的 数据 进行 了 类 、 属 性 以 及 实例 的 设 
ie 。 夏 染 娟 等 则 提出 了 “古籍 循 证 "的 概念 。 
“ 颍 童 学术. 考 镜 源流 ”功能 只 是 典籍 知识 价值 开发 的 
部 分 应 用 ,典籍 知识 更 多 、 更 有 价值 的 应 用 有 待 深入 。 
总 的 来 说 ,目前 阶段 针对 于 典籍 知识 的 研究 与 开 
发 应 用 相对 有 限 。 数 字 人 文 研究 理念 的 出 现 促进 了 人 
文学 科 与 技术 的 融合 ,也 引发 了 古籍 文献 数据 库 建设 、 
开 恬 思 路 的 转变 ,给 古籍 目录 应 用 与 开发 带 来 了 新 
的 灵机 。 在 人 文学 科研 究 逐 步 强调 “科学 化 "转型 的 
过 程 中 ,知识 关联 、 定 量 分 析 与 挖掘 是 古籍 文献 深度 开 
发 与 利用 的 发 展 方向 ,为 古籍 文献 知识 的 深度 开发 
与 利用 提供 了 新 的 理念 与 独特 的 创造 性 思维 。 


3 ”典籍 知识 图 谱 框 架构 建 


3.1 典籍 知识 化 需求 分 析 

典籍 目录 不 仅 是 引导 治学 的 门 径 ,更 是 考证 学 术 
源流 的 重要 材料 ”” ,以 古籍 目录 为 核心 的 应 用 主要 
在 古籍 版 本 源流 考证 方面 ”。 典 籍 目录 与 古代 学 术 
文化 有 着 密切 的 关系 ,古籍 目录 集成 了 古代 文人 的 典 
籍 之 大 成 ,典籍 日 录 提 供 时 空 背 景 下 的 著作 、 出 版 情 
况 ,提供 一 种 典籍 的 流传 线索 ,为 人 们 提供 了 男 一 个 观 
察 古代 文人 的 地 理 分 布 .组合 与 变迁 的 角度 ,在 一 定 程 
度 上 反映 了 中 国 经 济 文化 发 展 与 社会 变迁 等 ,通过 典 


籍 目录 能 够 反映 历代 典籍 的 流传 ,存亡 状况 ,从 中 可 推 
衍 中 国 古代 学 术 流 变 ,也 能 够 反映 历代 思想 文化 和 学 
术 旨 趣 "" 。 典 籍 目录 中 的 编撰 者 信息 则 是 研究 编撰 
者 之 间 学 术 和 社会 关系 的 重要 线索 ,近年 来 在 文学 地 
理学 的 研究 中 典籍 目录 与 编撰 者 也 成 为 重要 的 研究 对 
象 ,通过 分 析 历代 文学 家 的 地 理 分 布 情况 ,了 解 中 国 古 
代 文坛 的 变化 及 古代 学 术 的 发 展 沿革 情况 ,已 成 为 文 
学 地 理 研 究 的 重要 依据 与 手段 |。 

从 人 文 研究 应 用 的 维度 来 说 ,需要 围绕 古籍 形成 
年 代 , 编 撰 者 籍贯 收藏 地 等 时 间 及 空间 角度 进行 分 
析 。 大 规模 典籍 知识 图 谱 的 构建 在 强大 的 知识 关联 性 
方面 有 助 于 研究 者 全 面 观 察 古籍 版 本 及 版 式 信息 ,了 
解 古代 学 术 的 发 展 沿革 情况 ,考察 版 本 源流 , 理 清 流 变 
脉络 ,使 用 算法 在 古籍 知识 网 络 上 可 计算 编撰 者 之 间 
的 学 术 和 社会 关系 ,从 更 深层 次 挖掘 出 我 国 古代 文化 
的 发 展 与 变迁 ;还 能 够 通过 在 古籍 文献 中 分 析 编 撰 者 、 
编撰 时 间 ,编撰 方式 、 版 本 特征 等 多 种 维度 的 相关 性 ， 
进一步 揭示 古籍 数据 背后 隐藏 的 丰富 知识 ,突破 传统 
的 单一 数据 源 统计 分 析 的 模式 ,通过 本 体 知识 或 者 规 
则 推理 技术 可 以 获取 数据 中 存在 的 隐 含 知识 ,通过 链 
接 分 析 则 可 发 现实 体 间 隐 含 的 关系 ,通过 不 一 致 检测 
技术 可 发 现 古 籍 数据 编目 中 的 噪声 及 差异 ;古籍 编撰 
者 空间 信息 可 视 化 分 析 功 能 ,能 为 文学 地 理 的 空间 环 
境 分 析 提 供 新 的 研究 方式 ,更 重要 的 是 可 为 典籍 研究 
者 提供 基础 数据 服务 。 

在 传统 与 现代 结合 .机 遇 与 挑战 并 存 的 古籍 数字 
化 大 潮 中 既 要 保留 优良 传统 ,又 要 适应 数字 化 时 代 的 
发 展 潮流 ,典籍 知识 服务 最 终 的 立足 点 是 用 户 服务 , 需 
要 有 一 套 完备 的 平台 ,为 学 者 构建 一 站 式 古 籍 目 录 检 
索 系 统 ” ,帮助 研究 者 进行 大 规模 的 古籍 目录 收集 、 
整理 ,通过 不 断 满足 不 同 用 户 的 各 种 需求 ,加 快 整个 古 
籍 文献 在 内 容 技术、 研究 等 方面 的 创新 升级 ,构建 各 
类 古籍 知 识 如 版 本 版式. 时间、 地 理 `、 人物、 编撰 方 式 
等 的 知识 库 并 提供 知识 图 谱 服务 ,同时 提供 各 种 大 规 
模 典 籍 统计 分析、 数据 挖掘 、 知 识 推 理 等 服务 ,大 规模 
的 典籍 知识 图 谱 也 是 机 器 智能 的 基础 。 

3.2 ”典籍 知识 图 谱 框架 

知识 图 谱 是 近年 来 知识 组 织 领域 的 研究 热点 ,是 
一 种 以 语义 网 络 为 基础 的 新 型 海量 知识 管理 和 服务 模 
式 ““。 构 建 知识 图 谱 的 主要 目的 是 获取 大 量 的 .计算 
机 可 读 的 知识 ,构成 网 状 的 知识 结构 ,增强 知识 单元 之 
间 的 关联 ,实现 用 户主 题 检 索 需 求 ,从 而 真正 实现 语义 
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检索 。 近 年 来 ,知识 图 谱 也 开始 在 人 文 领域 的 研究 
中 得 到 应 用 ,特别 是 博物 馆 的 文物 知识 及 非 遗 文化 组 
织 领域 ,拓宽 了 传统 人 文 数据 存储 维度 和 数据 展现 方 
式 , 实 现 了 高 效 稳定 的 知识 管理 。 本 研究 使 用 知识 图 
谱 的 方法 构建 中 国 历代 存世 典籍 知识 图 谱 ,将 分 散 的 
典籍 数据 进行 关联 组 织 与 重 构 , 展 示 典 籍 知识 之 间 的 
关联 关系 ,为 面向 知识 的 挖掘 和 计算 葛 定 基础 ,帮助 学 
者 发 现 隐 性 知识 。 
典籍 知识 是 由 古籍 编撰 者 信息 .收藏 地 及 各 种 古 
籍 目录 元 数据 所 组 成 ,通过 对 碎片 化 的 典籍 知识 单元 
进行 有 效 组 合 , 最 终 形成 系统 化 的 典籍 知识 库 。 典 籍 
知识 图 谱 构建 分 为 需求 层 、 模 型 层 . 应 用 层 三 部 分 ( 见 


图 1 ) 。 从 需求 层 来 说 ,典籍 知识 图 谱 构建 要 以 需求 为 
导 面 ， 了 解 人 文 研究 的 需求 ,在 统一 系统 平台 中 对 研究 


对 网 的 多 个 属性 数据 采用 知识 图 谱 的 形式 进行 组 织 ， 
形 磊 一 个 新 的 、 更 能 有 效 表示 该 研究 对 象 的 综合 数据 
集 或 获得 新 的 隐 性 知识 ,借助 数字 人 文 研究 的 时 间 ,地 
生 关 系 3 个 常用 研究 维度 进行 分 析 与 挖掘 :以 时 间 
光线 分 析 研究 典籍 演进 的 轨迹 过 程 ,反映 古典 文学 
尝 林 理念 的 发 展 ;四 对 研究 对 象 从 地 理 空 间 进行 分 析 
利 侧 法, 包括 各 种 空 s 间 元 素 及 其 结构 (组 合 ) 与 功能 
人 天 研究 对 象 的 民 性 数据 为 基础 ,分 析 作品 , 编 提 才 ， 
版 杰 等 之 间 的 关系 与 结构 。 因 此 ,古籍 作品 .编撰 者 、 
时 画 年 代 及 地 理 信息 等 是 典籍 知识 的 重要 组 成 部 分 ， 
可 屿 为 研究 者 提供 古籍 书目 时间、 地理 、 人 物 .版 本 、 
吉 答 式 等 多 个 分 析 角 度 。 


典籍 研究 需求 


ch 
ch 


需求 层 
领域 需求 


结构 化 数据 采集 
与 结构 化 数据 解析 
[ 非 结 构 化 数据 抽取 


图 1 典籍 知识 图 谱 构 建 框架 


基于 数字 人 文 研究 的 大 规模 典籍 知识 图 谱 构建 主 
要 是 为 了 适应 数字 人 文 研究 的 需要 ,突破 传统 的 应 用 
及 知识 组 织 模式 ， 的 最 大 价值 。 模 
型 层 是 典籍 知识 图 谱 的 核心 ,在 典籍 知识 图 谱 构 建 中 
主要 分 为 数据 抽取 数据 清洗 .数据 融合 及 知识 图 谱 构 
建 等 几 部 分 。 古 籍 目录 古籍 编撰 者 及 地 名 信息 等 是 
典籍 知识 图 谱 的 基础 ,古籍 目录 的 主要 属性 有 版 本 版 


次 责任 者 ,编撰 方式 .收藏 地 等 ,而 编撰 者 主要 属性 有 
籍贯 、 所 处 朝代 官职 等 信息 ,地 名 主要 包含 责任 者 籍 
贯 .藏书 地 等 ,这 些 信 息 来 源 既 有 结构 化 数据 ,也 包括 
从 散落 的 半 结 构 化 及 非 结 构 化 信息 中 抽取 的 数据 ， 
此 ,典籍 信息 抽取 是 典籍 图 谱 构建 的 基础 与 关键 ,信息 
抽取 主要 通过 信息 发 现 、 预 处 理 和 信息 标注 与 提取 , 需 
要 通过 多 种 方法 进行 信息 提取 。 数 据 融 合 也 是 典籍 知 
识 图 谱 构 建 的 重要 部 分 ,负责 对 采集 的 信息 AN 
合并 及 归 一 化 处 理 。 而 图 谱 设 计 则 是 典籍 知识 图 谱 构 
建 的 实现 环节 , 既 包 含 概 念 模型 的 构建 及 实体 .属性 、 
关系 的 定义 ,也 包含 从 典籍 知识 图 谱 概念 到 知识 图 谱 
的 存储 设计 ,最 终 形成 典籍 知识 图 谱 知 识 服 务 系统 。 
应 用 层 由 典籍 知识 查询 .知识 分 析 、 知 识 发 现 等 特 
定 应 用 服务 模块 和 公用 应 用 服务 模块 组 成 ,每 个 应 用 
服务 模块 提供 特定 的 应 用 服务 ,典籍 知识 查询 主要 面 
向 用 户 通 用 典籍 知识 查询 服务 ,典籍 知识 da 
领域 研究 典籍 分 析 , 而 知识 发 现 则 利用 知识 图 谱 的 推 
理 与 计算 优势 辅助 学 者 发 现 典籍 知识 中 的 隐 ee 


4 人 机 协作 的 典籍 数据 抽取 及 多 源 数据 


融合 


4.1 典籍 数据 抽取 及 清洗 

典籍 知识 图 谱 主 要 为 典籍 研究 提供 支撑 ,因此 ,上 典 
籍 数据 来 源 及 数据 准确 性 、 真 实 性 是 知识 图 谱 构 建 的 关 
键 ,也 是 知识 图 谱 的 重要 基础 。 本 研究 的 典籍 数据 主要 
从 国内 外 古籍 书目 网 络 数据 库 、 人 出 版 领 
域 专业 资料 .通用 领域 的 知识 图 谱 、 在 线 百 科 和 万 维 网 
相关 的 网 页 抽取 而 来 ,主要 i Oe 
关 网 站 典籍 信息 。 抓 取 典 籍 目录 数据 相对 来 说 比较 简单 ， 
通过 自主 开发 的 采集 软件 并 针对 不 同 数据 源 设 定 相应 采 
集 规则 即 可 完成 对 应 数据 源 的 典籍 目录 采集 ( 见 图 2)。 
由 于 大 部 分 典籍 网 站 数据 发 布 时 对 原始 典籍 编目 
数据 进行 了 重组 ,大 部 分 为 如 图 3 所 示 半 结构 化 数据 
发 布 ,因此 需要 对 采集 的 数据 进行 不 同 程度 的 清洗 , 需 
要 分 别提 取 题 名 、 朝 代 、 编 撰 者 、 编 撰 方 式 等 元 数据 , 采 
用 有 监督 ( supervised) 的 方式 在 典籍 目录 提取 过 程 中 
先 对 少量 数据 进行 标注 ,然后 进行 机 器 学 习 , 再 使 用 学 
习 模型 对 同类 型 或 者 符合 特定 关系 的 数据 进行 清洗 ， 
如 :“ 杜 工 部 草堂 诗 竹 二 十 二 卷 ( 唐 ) 杜 表 撰 ( 宋 ) 重 几 
编 ( 宋 ) 歼 萝 缠 短 ( 清 ) 方 功 惠 校订 ”, 经 过 数据 清洗 可 
成 为 如 图 4 所 示 的 结构 化 典籍 数据 。 
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欧阳 剑 ， 梁 珠 芳 , 任 树 怀 . 大 规模 中 国 历代 存世 典籍 知识 图 谱 构建 研究 [可 .图 书 情报 工作 ,2021 ,65(5) :126 - 135. 


傅 效 据 来 集 

提取 年 。。 save 加载 
日 期 列表 ”页 列表 信息 表 
普查 编号 索 才 号 
上 000020100 生 a41212 
430000-2401-002: 412/100 
430000-2401-002. 412/191 
430000-2401-002 A412/59 
430000-2401-002: 412/177 
430000-2401-002: A412/108 
430000-2401-002 412/3 
430000-2401-002: 412/3 (1) 
430000-2401-002: 412/3 (2) 
430000-2401-002. 412/3 (3) 
430000-2401002 412/3 (4) 
430000-2401-002: 412/3 (5) 
430000-2401-002: 412/3.6 
430000-2401-002: 412/106-2 
430000-2401-002: 412/106-2 (1) 
430000-2401-002: 412/106-2 (2) 
430000-2401-002. 412/106-2 (3) 
430000-2491-002: 412/106-2 (4) 


获取 页 码 保存 页 码 启动 二胡 [5000 | | 


= 口 x 


路 径 | 停止 。 人 工 保存 区 。 提取 ”内容 抓 取 目录 处 理 ok 作者 处 理 


< 


test 修改 和 
题名 苦 者 版 本 批 校 中 路 册 数 装 峭 形 式 。 版 式 人 | 开本 妆 商法 
三 管区 名 集 五 十 十 郑 清 ) 染 章 并 辐 二 桂林 浊 日 新 室 刻 本 和 
元 半 嘿 刁 右 尘 巡 十 二 答 ( 青 ) 张 于 加 青衣 光 元 尖 盏 屋 刻本 圳 人 
条 殴 这 古诗 浊 三 十 狼疮 祖 壮 四 疮 青青 轩 隆 十 三 年 (1748) 刘 本 10 册 a 
条 禾 堂 古 尘 泛 三 十 狼 状 祖 生 四 党 (青青 刻本 i 
部 定 历代 是 雷 尘 类 一 百 二 十 卷 〈 滑 》 再 原 茹 四 十 六 年 《1707) 内 F 32 册 ep 
历朝 名 多 讨 词 十 二 卷 〈 清 ) 陆 宁 辑 。 清 塌 隆 三 十 作 年 《1773》 陆 地 让 二 本 
十 八 杰 诗 钞 二 十 作 誉 〈 消 ) 曾 国 着 等 青 同 泊 十 三 年 《1874) 长沙 和 2 骨 老 ; 请 放 
十 八 家 尘 钞 二 十 八 卷 ( 青 ) 曾 贺 著 知青 同治 十 三 年 《1974) 长 站 28 册 由 让 
十 作家 尘 独 二 十 作 疮 〈 青 ) 曾 园区 和 表 同治 十 三 年 (1874) 其 小 23 阴 i 关 
十 作家 尘 钞 二 十 作 誉 〈 青 ) 普 国药 青 同 治 十 三 年 (1874) 兵 小 2s 骨 让 和 直 
十 作家 计 秒 二 十 作 吞 ( 清 ) 曾 国 荐 徐 滑 同 治 十 三 年 (1874) 长沙 2 用 2 
十 作家 针 妙 二 十 八 知 〈 清 ) 曾 国 寺 区 青 同 治 十 三 年 (1374) 长沙 20 册 es 
十 八 家 多 如 二 十 狼疮 《 清 ) 曾 加 将 科 背光 绪 二 十 九 年 《1903) 上 3 1 i 
三 二 家 尘 抄 六 关 首 - 世 示 一 龌 《 青 ) 青 同 澡 十 三 年 《1374) 入 中 蜂 Ee 
三 十 家 尘 钞 六 卷首 一 旁 末 一 蕉 ( 清 》 青 同治 十 三 年 〈 1974) 全 中 让 2 3 
三 十 家 :4b 六 着 首 一 着 末 一 郑 《再 》 有 同治 十 三 年 (1874) 乱 中 明 清册 并 入 汪 
三 十 家 诗 色 六 卷首 一 疮 林 一 卷 〈 消 》 清 同治 十 三 年 (1874》 入 中 明 0 
三 十 家 尘 台 六 卷首 - 兰 末 一 卷 〈 消 ) 青 同 治 十 三 年 (1874) 入 中 胡 本 
， 
数据 抽取 。。 Button? 提取 作者 ， 分 高 作者 OK | 别名 | 十 竹 总 目 ，| mauthor | 批 时 更 


开始 页 |64085 | 结束 页 74890 | neo 季 
已 抓 取 : 64088 列 要 : 30 


图 2 典籍 数据 采集 


后汉 书 九 十 卷 志 主 补 三 十 卷 (南朝 宋 ) 范 瞧 扎 ( 唐 ) 李 贤 许 
三 国志 六 十 五 卷 ( 伙 ) 陈 考 扎 (南朝 宋 ) 裴 松 之 注 
但 书 一 百 三 十 卷 〈 唐 ) 房 玄 龄 等 扎 普 书 音义 三 卷 ( 唐 ) 何 超 撰 
宋 书 一 百 卷 (南朝 梁 ) 沈 约 撰 
南齐 书 五 十 九 卷 (南朝 梁 ) 藕 子 显 扎 
梁 书 五 十 六 卷 ( 唐 ) 姚 思 廉 撰 
图 3 半 结 构 化 典籍 数据 形式 
杜 工 部 草堂 诗 等 二 十 二 卷 
( 唐 ) 一 杜 衣 -所 
( 宋 ) 一 -和 鲁 岩 一 一 编 
( 打 ) 一 柳 上 说 一 和 
( 清 ) 一 一 方 功 惠 校订 
mm 图 4 结构 化 典籍 数据 形式 
[0 相 对 而 言 ,典籍 编 所 者 信息 是 数据 抽取 的 重点 与 
难 友 。 典 籍 编 扣 者 从 已 经 抽取 的 典籍 数据 中 的 编 所 者 
项 特 进 行 提 取 ,经 去 重 后 共有 221 783 位 编撰 者 。 在 构 
建 铅 典籍 知识 图 谱 中 ，, 编 扎 者 实体 包含 朝代 . 生 展 . 字 、 
号 . 别 号 . 谥 号 .职业 ,籍贯 人 物 标签 .代表 作品 .成 就 
官职 等 属性 ,主要 通过 3 种 方式 获得 :结构 化 数据 信息 
抽取 (如 中 国 历代 人 物 传记 库 (CBDB) 《中 国 历史 人 
物 辞 典 ) 等 人 名 辞典 ) . 半 结 构 化 数据 信息 抽取 (在 线 
百科 类 ) . 非 结构 化 数据 信息 抽取 (搜索 网 页 ) ,这 三 类 
数据 中 包含 有 丰富 的 典籍 编撰 者 属性 信息 ,如 CBDB 
含有 不 少 典籍 编 所 者 信息 ,整个 信息 抽取 流程 见 图 5。 
CBDB 及 《中 国 历史 人 物 辞典 》 等 数据 只 有 少 部 分 能 跟 
古籍 的 编撰 者 匹配 ,因此 大 部 分 数据 需要 通过 在 线 百 
科 与 网 络 信息 进行 补充 ,分 别 用 编撰 者 作为 关键 词 进 
行 检索 ,然后 从 百科 类 检索 页 面 中 抽取 编撰 者 信息 进 
行 补充 。 百 科 类 网 站 中 的 编撰 者 是 一 个 个 实体 ,每 个 
实体 的 页 面 均 围绕 一 个 编撰 者 进行 全 方位 的 介绍 ,网 
页 信息 结构 也 比较 固定 ,通过 正则 表达 式 配置 相应 的 


V:202304.00682v1 


抽取 模板 即 可 进行 编撰 者 信息 抽取 ,百科 类 内 容 质 量 
也 比较 高 ,因此 ,百科 类 网 站 成 为 许多 知识 图 谱 构建 的 
首选 。 对 于 无 法 通过 结构 化 、 半 结构 化 数据 源 抽取 匹 
配 的 编撰 者 , 则 通过 搜索 引擎 的 方式 查找 典籍 编撰 者 
相关 网 页 ,由 于 返回 的 网 页 过 多 ,需要 构造 一 个 二 分 类 
器 来 判断 返回 的 网 页 是 否 是 古籍 文献 编撰 者 介绍 性 网 
页 ,最 后 从 该 网 页 抽取 编撰 者 信息 。 通 过 在 线 百 科 与 
搜索 引擎 的 方式 查找 会 存在 典籍 编撰 者 多 义 编撰 者 
信息 属性 不 一 致 .多 个 对 象 属性 值 未 分 割 .数值 属性 值 
格式 不 统一 的 情况 ,因此 需要 对 数据 进行 清洗 、 同 名 排 
皮 数据 对 齐 等 处 理 , 特 别 是 与 现代 人 物 同名 者 比较 
多 ,在 处 理 时 通过 简单 的 正则 表达 式 去 判别 出 生年 ,从 
年 的 取 值 范围 就 能 快速 地 判别 出 是 否 为 古籍 编撰 者 。 


CBDB 


古 稍 普 查 数据 


中 国人 台湾 地 区 及 日 
本 古籍 联合 目录 


图 5 典籍 知识 库 来 源 及 抽取 流程 


4.2 多 源 典 籍 数据 融合 
异 构 知识 资源 的 语义 链接 和 集成 是 知识 图 谱 的 核 
心 内 容 , 需 要 研究 异 构 数据 的 关联 ,将 其 转化 成 为 具有 
富 链接 关系 的 知识 网 络 。 数 据 融合 是 对 同一 研究 对 
象 相关 的 多 个 属性 数据 采用 一 定 的 模式 与 方法 ,形成 
一 个 新 的 、 更 能 有 效 表示 该 研究 对 象 的 综合 数据 集 ,将 
单一 数据 或 不 同类 别 的 多 源 数据 加 以 综合 ,消除 多 源 
信息 之 间 可 能 存在 的 元 余 和 矛盾 ,加 以 互补 ,改善 研究 
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对 象 信息 提取 的 可 靠 性 ,提高 数据 的 使 用 效率 。 典 籍 
知识 图 谱 也 是 一 个 数据 高 度 融 合 的 项 目 , 典 籍 知 识 图 
谱 包含 多 个 异 构 的 古籍 目录 ` 人物 及 地 理 数据 ,有 来 自 
不 同 图 书馆 的 古籍 编目 数据 历史 文献 数据 .书目 资 
料 .研究 成 果 、 网 络 数据 等 ,需要 将 这 些 多 源 数 据 组 织 
起 来 成 为 一 个 整体 并 进行 合并 ,从 而 支撑 各 项 研究 对 
知识 表达 和 知识 呈现 的 需求 ,这 一 过 程 中 的 重要 一 步 
就 是 数据 融合 ,如 图 6 所 示 : 


中 国 历代 人 物 数据 
库 (CBDB) 


复旦 历史 地 理 数据 


chgis 


人 名 、 别 名 词典 等 


典籍 数据 融合 


图 6 


2V1 


CO 典籍 数据 融合 主要 是 将 古籍 目录 、 人 物 及 地 名 结 
博 猎 据 、 半 结构 数据 和 非 结构 等 不 同形 式 的 典籍 数 所 
进入 融合 ,还 要 将 不 同 来 源 的 数据 进行 融合 ,在 典籍 知 
误 构 建 中 多 源 数 据 融合 主要 包含 典籍 目录 .典籍 编撰 

名 三 类 数据 融合 。 典 籍 目录 包含 版 本 、 藏 书 地 、 
藏 性 数量 等 重要 信息 ,由 于 典籍 目录 的 来 源 不 同 ,典籍 
的 著录 规则 不 统一 ,使 得 采集 而 来 的 原本 属于 同 
种 览 籍 的 信息 存在 一 些 差 异 , 给 典籍 数据 融合 带 来 了 
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简 票 转 搞 
书 全 GEE 确 。 查 旨 作者 添加 数据 rew 修改 保存。 国 百度 搜索 全 caps 孝 据 “使用 说 明 


难度 。 本 研究 主要 通过 题目 + 编撰 者 来 确定 是 否 属于 
同 种 典籍 , 当 题 目 、 编 扎 者 一 致 时 , 则 把 它们 归于 同 种 
典籍 ,本 研究 通过 该 方法 将 250 万 余 典籍 数据 合并 为 
64.9 万 余 种 不 同 古籍 ;典籍 编撰 者 数据 主要 采用 人 名 
+ 朝代 的 方式 进行 编撰 者 关联 ,符合 这 个 组 合 条件 的 
数据 被 认为 是 同一 编撰 者 ,并 提取 相应 编撰 者 的 相关 
言 息 。 此 外 ,古籍 目录 的 编撰 者 有 的 用 别名 或 者 号 ,如 
不 加 以 处 理 也 会 造成 不 一 致 性 ,如 :人 名 墨 歼 裔 主人 对 
应 冯梦龙 ,需要 通过 实名 与 字号 对 应 表 进 行 映射 ;地 名 
数据 融合 则 主要 需要 处 理 不 同 朝代 地 名 的 变化 ,在 不 
同 的 数据 源 中 由 于 地 名 变化 的 差异 也 会 导致 无 法 对 
应 ,如 古 地 名 金城 ,即今 甘肃 兰州 , 唐 称 金城 ,又 称 金城 
郡 等 。 数 据 的 融合 除了 使 用 计算 机 进行 自动 处 理 外 ， 
必要 的 人 工 干 预 也 是 必 不 可 少 的 ( 见 图 7)。 在 对 古籍 
目录 、 人 物 及 地 名 数据 等 进行 抽取 并 获取 相关 数据 后 ， 
需 在 梳理 和 清理 数据 的 基础 上 进行 数据 转换 和 建立 结 
构 化 数据 ,实现 数据 整合 和 数据 聚合 ,并 建立 基础 数据 
集 , 同 时 利用 多 种 数据 源 之 间 的 宛 余 数据 能 对 知识 图 
谱 的 准确 性 进行 合理 的 评估 ,元 余 信 息 一 方面 可 以 提 
高 知识 点 的 可 信和 度 , 男 一 方面 也 可 以 为 后 续 人 工 编辑 
和 校 验 提供 参考 依据 ,有 利于 消除 古籍 作品 、 版 本 、 人 
名 及 地 名 的 皮 义 。 


吉 代 [3 出 生年 这 年 素 引 年 字号 
青 : 趟 详 一 山 1773 1832 


作品 信息 


PIH3 训 I 思 

0103 影 居 仁 

13462 蜗 吾 茂 http://bake .baidu.comfitem/ 359911 

miss BEE ib LE 
< > 


wD 作者 朝代 大 哭 。 出 生年 


50710(zongmu): 文献 名: 嘉庆 十 年 乙 丑 科 埋 试 原 矢 一 若 ~ 作 者 :青豆 这 捍 ^ 版 本 : 青 嘉 麻 半 刻本 <br/> 
p> 


分 耸 ^ 作 者 : 青 彭 党 撰 ^ 版 本 : 青 道 光 间 刻本 <br/ 


222062Czongmu) : 文献 名 :BS 不 分 卷 人 作者 : 博 训 安插 ^ 版 本 : 雯 鼎 学 抄本 <br/> 
222063(zongmu): 文献 名 : 驶 砚 辣 文集 不 分 卷 ^ 作 者 : 青 喜 滩 撰 ^ 版 本 : 青 吉 麻 问 刻本 <br/> 


图 7 


5 典籍 知识 图 谱 构建 实现 及 应 用 


典籍 知识 既 有 物质 属性 的 一 面 ,是 记录 知识 内 容 
的 物质 载体 ,同时 ,典籍 也 是 物化 了 的 思维 、 凝 固 的 知 


县 前 所 在 行 : 37668 


典籍 数据 人 工 编辑 和 校 验 


识 ,因此 典籍 又 具有 精神 属性 的 一 面 。 典 籍 知 识 图 谱 
的 构建 既 要 包含 古籍 的 外 在 物质 属性 ,又 要 包含 古籍 
内 在 的 隐 含 知识 ,并 实现 古籍 文献 特征 的 多 维 关联 , 达 
到 典籍 知识 互通 、 共 用。 
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5.1 典籍 知识 图 谱 实 体 类 型 及 属性 

典籍 知识 图 谱 的 核心 是 书目 版本、 编撰 者 信息 以 
及 藏书 地 与 编撰 者 籍贯 相关 的 地 名 信息 ,根据 典籍 知 
识 图 谱 使 用 场景 确定 采用 书目 .版 本 责任 者 及 地 名 4 
种 实体 类 型 。 国 际 图 书馆 协会 联合 会 编制 的 《书目 记 


Person 、Version .Place 4 类 ( 见 图 8) ,分别 为 作品 、 人 物 、 
版 本 、 地 名 .《 书 目 记录 的 功能 需求 定义 的 作品 的 概 
念 是 抽象 的 ,是 独 有 的 知识 或 艺术 的 创作 ,相对 于 古籍 
来 说 就 是 编撰 者 编撰 的 一 种 古籍 书 , 特 指 具 体 的 书目 ; 
版 本 则 是 一 种 书籍 经 过 多 次 传 抄 、 刻 印 或 以 其 他 方式 


录 的 功能 需求 》 为 书目 构建 了 一 个 概念 模型 ,书目 记录 
框架 清晰 定义 了 书目 记录 的 实体 、 实 体 属性 及 实体 间 
的 各 类 关系 ,古籍 书目 借鉴 《书目 记录 的 功能 需求 > 规 
范 ,在 此 基础 上 采用 “作品 -版 本 ”的 形式 来 进行 表 
达 , 从 概念 (concept) 上 典籍 知识 图 谱 可 归 成 Work、 


而 形成 的 各 种 不 同 本 子 , 一 个 “作品 ”可 以 对 应 多 种 
“版 本 ” ,一 种 "版 本 "可 以 有 多 个 复 本 ,有 不 同 的 收藏 
者 ;人 物 对 应 于 作品 的 编撰 者 ;地 名 是 指 对 应 版 本 藏书 
地 与 责任 者 籍贯 ,典籍 知识 图 谱 实体 类 型 , 见 表 1。 


> 其 书 
可 = Work 
民族 
3 D>》  ( 天 
ee SR { 委 作 玫 式 版 本 
著作 方式 CE ) 
二 
erson ersion E -一 装帧 
© 著作 方式 3 
过 全 一 本 ra 
CD 卒 年 (GB) a “(Ge) 
A 
©O 
GN Chia) 
> ， 
SZ 图 8 典籍 知识 概念 
人 表 1 知识 图 谱 实 体 类 型 GIS 信息 等 属性 。 
实 帮 类 型 ”中 文 合 义 举例 5.2 典籍 知识 图 谱 实 体 关 系 类 型 
好 作品 《 惜 抱 轩 全 集 》《 曾 文正 公 手 书 日 记 》 实体 关系 (entity relation ) 是 指 某 一 时 间 段 内 实 
TSon 曾 藩 ， 姚 蕴 3. » A » | 3 、 ~ 
ea 体 之 间 存在 的 关系 。 典 籍 知识 图 谱 实 体 之 间 存在 多 
Version 版 本 清光 绪 刻 古 侈 化 书本 , 清 同 治 五 年 (1866 ) 刻本 
ee Hy 种 关系 ,主要 有 作品 与 编撰 者 、 作 品 与 版 本 、 版 本 与 
Place 地 名 江苏 泰兴 , 越 州 山 阴 ( 今 浙江 绍兴 ) 


属性 是 典籍 知识 图 谱 对 应 实体 (entity ) 的 重要 元 
素 ,每 个 作品 都 包含 有 题名 、 编 扎 者 .编撰 方 式 . 所 属 分 
类 作品 形成 年 代 等 属性 ,作品 形成 年 代 以 编撰 者 所 在 
年 代为 参考 ,编撰 者 朝代 一 般 以 卒 年 为 断 ” ,个 别 著 
者 的 朝代 可 参考 其 生平 活动 .成书 年 代 及 传统 著录 确 
定 。 而 版 本 则 可 通过 版 刻 时 间 和 版 本 类 型 (版 式 ) 来 
描述 , 男 外 还 包含 该 版 本 特有 的 编撰 者 编撰 方式 。 人 
物 是 典籍 知识 图 谱 中 关联 关系 的 重要 对 象 ,包含 字 、 
号 .别名 、` 出 生年 , 卒 年 ,代表 作品 成 就 ,标签 .职业 、 籍 
贯 .索引 年 (一 般 选 浴 年 作为 索引 年 ,在 卒 年 不 详 时 则 
选 其 在 文献 中 被 提 到 的 任职 、 活 动 事件 等 时 间 点 为 索 
引 年 ) 等 属性 。 地 名 主要 包含 国 别 .省份 .市 县 名 称 、 


收藏 地 编撰 者 与 籍贯 等 之 间 的 关系 。 作 品 与 编撰 
者 之 间 存 在 编撰 方式 ,通过 对 采集 的 古籍 书目 的 编 
撰 方 式 进 行 分 析 , 发 现 其 多 达 2 千 多 种 ,为 了 便于 人 研 
究 统 计 分 析 , 有 必要 对 编撰 方式 归 一 化 ,根据 《中 华 
古籍 总 目 编目 规则 》 中 的 编撰 方式 要 求 “一 般 依 正文 
卷 端 所 题 著 录 , 原 书 所 题 性 质 相 同 或 相近 之 著作 方 
式 , 可 适当 归并 而 不 尽 据 原 题 。”, 除 此 之 外 作 以 下 处 
理 :QD 撰 \ 著 、 述 .学 、 拟 、 议 等 著作 方式 , 统 作 为 “ 撰 ”; 
汇编 整理 前 人 著作 者 , 统 作 为 “ 编 " ;@ 辑 录 编 次 前 
人 著作 者 ,统称 为 “ 辑 ” ;中 抄录 编 次 有 关 资 料 以 成 专 
书 者 , 统 作 为 “ 篆 修 ”, 除 此 之 外 则 按 依 原 题 编撰 方式 
建立 作品 与 编撰 者 之 间 的 关系 。 作 品 实体 与 版 本 实 
体 则 存在 “作品 版 本 ”的 关系 ,而 版 本 与 收藏 地 存在 


131 


团 定 情报 三 作 


第 65 卷 第 5 期 2021 年 3 月 


ChinaXiv 合 作 期 刊 


“收藏 于 ”的 关系 ,编撰 者 与 籍贯 存在 “属于 ”的 关系 ， 
而 有 的 作品 是 属于 某 个 作品 的 一 个 子 目 ,因此 , 除 作 
品 与 编撰 者 存在 多 种 关系 之 外 ,其 他 实体 之 间 存 在 


的 关系 则 比较 固定 ,典籍 知识 图 谱 实体 关系 及 类 型 
见 表 2 ,实体 之 间 通 过 关系 连接 形成 了 典籍 知识 概念 
图 ( 见 图 8) 。 


表 2 典籍 知识 图 谱 实体 关系 类 型 


举例 


实体 实体 关系 类 型 中 文 含义 
责任 者 ,作品 Way_of_works( 纂 …) 著作 方式 ( 纂 ) 
作品 ,版 本 version_is 版 本 
版 本 ,收藏 地 held_in 收藏 于 
责任 者 ,籍贯 Bom_in 出 生 于 
作品 ,作品 series_of_ books 从 书 ( 子 目 ) 


5.3 典籍 知识 图 谐 实现 

知识 图 谱 以 三 元 组 模型 表达 “实体 - 属性 "和 属 
尾 值 (statement ,目前 ,知识 图 谱 的 存储 主要 为 关联 数 
据 @inked data) ,图 数据 库 及 关系 数据 库 ” ,综合 比较 
钙 漳 识 图 谱 存 储 的 优 快 点 ,典籍 知识 图 庄 选 择 以 图 数 
握力 Neogj 进行 存储 。 在 Neo4j 中 ,知识 单元 由 顶点 
( 季 e) . 边 (pdge) 和 属性 (Propery ) 组 成 的 ,其 存储 
形 示 为 三 元 组 (S,P,0) 数据 ,因此 需要 在 奥 籍 知识 林 
领事 Neodj 存储 之 间 建 立 哆 射 , 在 Neo4j 中 节点 类 型 
于 多 知识 概念 类 对 应 , 即 节点 分 Work Person .Version、 
PM4 类 实例 ,每 个 节点 则 对 应 相应 的 作品 , 编 所 者 、 


| +apreunase 


V:2 


chinaX 


于 E17 (1846) 区 本 


9 ”典籍 知识 图 谱 


最 终 形成 的 典籍 知识 图 谱 由 来 自 于 全 球 743 家 图 
书馆 、 科 研 院 所 等 所 藏 的 250 万 余 中 国 历代 存世 典籍 
信息 组 成 ,其 中 包含 古籍 实体 649 549 种 ( Work 实 
例 ) 、 典 籍 责 任 者 221 783 位 (Person 实例 ) .古籍 版 本 


< 汪 志 伐 , 纂 , 荡 政 辑 要 九 卷 首 一 卷 > 
< 幕 政 辑 要 九 卷首 一 卷 ,版 本 ,清道 光 十 二 年 (1832) 来 鹿 党 刻本 > 
< 清道 光 十 二 年 (1832 ) 来 鹿 堂 刻本 ,收藏 于 ,青海 省 图 书馆 > 


< 汪 志 伊 , 出 生 于 , 安徽 桐城 > 
< 养 正 遗 规 二 卷 补 编 一 卷 ,丛书 ,五 种 遗 规 > 


版 本 及 地 名 实例 ,与 数据 库 中 数据 的 实体 及 属性 建立 
对 应 关系 ,每 个 实例 的 属性 通过 属性 名 与 属性 值 来 标 
示 , 边 对 应 实例 之 间 的 关系 , 边 的 属性 则 表示 实体 之 间 
的 关系 类 型 ( 见 表 3)。 按 照 数 据 模型 到 数据 库 数据 的 
对 应 规则 转换 对 应 数据 成 对 应 的 数据 集 , 将 清洗 、 融 合 
并 归 一 化 的 数据 导入 Neo4j 中 , 即 可 实现 典籍 知识 图 


谱 ( 见 图 9)。 
表 3 典籍 知识 与 Neo4j 对 象 
典籍 知识 ”概念 类 实例 实体 之 间 关 系 属性 
Neo4j 节点 类 顶点 边 属性 名 、 属 性 值 
9 合作 网 络 痘 录 注册 


1498 383 个 (Version 实例 ) .地 名 节点 13 960 个 (Place 
实例 ) ,这 四 类 节点 及 其 之 间 的 关系 构成 一 个 庞大 的 典 
籍 知识 图 谱 , 节 点 、 属 性 及 边 等 形成 了 一 个 立体 ,多维 、 
多 用 途 的 古籍 知识 关联 网 络 ,对 全 球 主要 中 国 历代 存 
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世 典 籍 书目 信息 进行 了 较 全 面 描述 ,为 研究 者 挖 气 海 
量 古籍 书目 数据 背后 隐藏 的 知识 提供 了 一 站 式 平台 ， 
大 大 增强 了 古籍 知识 服务 功能 。 
5.4 ”典籍 知识 图 谱 应 用 

知识 图 谱 对 实体 关系 具有 表达 能 力 强 、 对 属性 及 
结构 可 扩展 性 好 .关联 查询 高 效 等 优势 ,在 对 海量 的 多 
元 异 构 信 息 进 行 建 模 时 ,图 数据 模型 较 关 系 模型 、 键 
值 模型 .文档 模型 等 而 言 具 有 更 直观 的 效果 , 更 有 利 
于 使 用 者 对 数据 结构 和 语义 关系 的 理解 。 

典籍 知识 图 谱 作 为 一 种 基础 性 知识 服务 平台 , 首 
先 , 它 能 为 普通 大 众 提供 基础 典籍 知识 服务 ,通过 简单 
的 图 谱 可 了 解 传统 的 典籍 知识 ,增强 文化 传播 效果 。 
由 于 典籍 数据 来 源 的 多 样 性 ,可 以 同时 比较 不 同 国家 、 
地 医 同 一 种 中 国 古籍 的 编目 数据 ,发 现 古籍 目录 数据 
中 的 噪声 及 差异 ,为 全 国 古籍 普查 工作 提供 编目 参考 ， 
直面 提 高 编目 质量 与 工作 效率 。 
《9 其 次 ,典籍 知识 图 谱 拓宽 了 典籍 的 应 用 范围 ,多 维 
成 家 典籍 知识 图 谱 更 为 专业 研究 人 员 提供 了 深层 知识 
欣 据 和 知识 重组 等 高 级 服务 ,借助 典籍 知识 图 谱 可 分 
桥 轴 籍 数据 中 存在 的 隐 含 知识 ,特别 是 在 古籍 版 本 对 
只 天 包 源流 方面 ,典籍 知识 图 谱 有 着 巨大 的 优势 ,能 
够 候 据 相关 图 谱 快 速 地 了 解 版 本 特征 以 及 装帧 特征 等 

度 的 相关 性 ,还 可 以 对 典籍 的 成 书 年 代 收藏 地 、 


第 三 ,典籍 知识 图 谱 也 为 相关 人 文 研究 提供 了 丰 
富 的 基础 研究 数据 服务 。 典 籍 知识 图 谱 从 古籍 实体 、 
典籍 编 握 者 .古籍 版 本 、. 地 名 节点 等 不 同 知识 维度 组 
织 , 从 多 个 角度 对 典籍 进行 了 描述 ,为 相关 研究 提供 了 
强大 的 多 维 分 析 功 能 ,借助 于 这 些 数 据 可 以 做 更 有 深 
度 的 研究 。 比 如 ,同一 古籍 的 编撰 者 之 间 通 常 具有 一 
定 的 关联 关系 ,在 版 本 、 版 次 、 印 次 和 藏 本 层次 上 ,古籍 
目录 中 的 编撰 者 信息 是 研究 编撰 者 之 间 学 术 和 社会 关 
系 的 重要 线索 ,通过 对 这 些 编撰 者 著录 信息 进行 定量 
分 析 可 以 获得 较 多 的 学 术 合作 ,学 术 传承 .交游 往来 等 
关系 ,如 通过 合作 网 络 的 交互 操作 可 发 现 与 编撰 者 吴 
路 人 存在 直接 或 间接 合作 过 的 其 他 编撰 者 ( 见 图 10)。 
文学 与 地 理 环境 的 关系 是 一 个 互动 关系 ,中 国 历代 文学 
家 的 地 理 分 布 格局 分 析 是 文学 地 理 研 究 的 重要 内 容 , 古 
籍 文献 的 编撰 者 则 是 分 析 的 主体 ,在 传统 研究 中 ,从 地 
理 空间 的 视角 研究 文学 ,解析 文本 中 的 空间 信息 是 一 项 
繁杂 的 工作 ,本 典籍 知识 图 谱 则 包含 有 相关 文人 的 多 维 
数据 ,利用 编撰 者 的 籍贯 属性 可 进行 古代 文学 地 理 研 
究 , 辅 助 学 者 分 析 文 历代 文学 家 的 地 理 分 布 。 此 外 , 利 
用 本 典籍 知识 图 谱 的 相关 古籍 文献 成 书 年 代 等 信息 ,可 
以 进一步 考察 中 国 古 代 学 术 的 发 展 沿革 情况 。 

典籍 知识 图 谱 是 对 古籍 文献 深层 次 开发 与 利用 的 
一 次 尝试 ,对 古籍 文献 目录 知识 服务 的 提升 具有 重要 


收藏 数量 等 进行 分 析 ( 见 图 9) ,获得 定量 的 学 术 发 展 


生计 重点 的 历史 分 布 情况 。 
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意义 ,典籍 知识 图 谱 可 以 对 这 些 信息 资源 进行 语义 标 
注 和 链接 ,建立 以 知识 为 中 心 的 资源 语义 集成 服务 。 
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知识 图 谱 是 知识 工程 领域 的 一 个 最 佳 实践 ,其 


基于 图 的 结构 更 有 利于 典籍 知识 的 表示 及 各 知识 单元 
的 关联 ,以 便于 典籍 的 存储 、 检 索 和 知识 服务 。 本 研 
究 通 过 古籍 实体 、 典 籍 编撰 者 、 古 籍 版 本 、 地 名 这 4 类 


典籍 知识 图 谱 ” ,由 节点 、 属 性 及 边 等 形成 了 一 个 立 
,多维 .多 用 途 的 古籍 知识 关联 网 络 ,大 大 增强 了 十 
籍 知识 服务 功能 。 
本 典籍 知识 图 谱 基本 由 计算 机 完成 典籍 数据 的 获 
取 、 自 动 标注 和 切 分 ,并 在 此 基础 上 完成 信息 抽取 工作 
和 数据 语义 规范 ,由 于 缺乏 足够 的 人 工 数据 审 校 , 计 算 
机 处 理 数 据 的 过 程 中 难免 存在 一 些 问题 数据 的 质量 
存 生 后 续 的 提高 ,一 些 编撰 者 属性 数据 也 有 待 补充 完 
普 虽 同时 ,典籍 知识 图 谱 的 研究 深度 和 高 度 有 待 进 一 
眶 的 研究 与 探索 ,比如 典籍 知识 图 谱 的 智能 问答 .知识 
拱 理 等 功能 有 待 进一步 深入 研究 与 开发 。 
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Research on the Construction of Knowledge Graph of Large-scale Chinese Ancient Books 
Ouyang Jian Liang Zhufang Ren Shuhuai' 
' Shanghai International Studies University Library, Shanghai 201620 
“School of Journalism and Communication ,Shanghai International Studies University, Shanghai 201620 
”School of Management, Guangxi University for Nationalities, Nanning 530006 

Abstract: | Purpose/significance | The establishment of a digital catalog is the need to protect and promote the 

Chinese civilization, and it also caters to the needs of new documentation and researchers. Chinese classics have 

been preserved throughout the ages. The construction of the knowledge graph provides a one-stop platform for re- 

searchers to dig out the hidden knowledge behind the massive bibliographic data of ancient books, which greatly en- 

hances the knowledge service function of ancient books. The large-scale knowledge graph of ancient books is also an 

important foundation of machine intelligence. | Method/process| This research used knowledge graph technology to 

organize the knowledge of ancient Chinese classics, constructed a framework model of classics knowledge graph from 

tee parts: demand layer, model layer, and application layer. Through man-machine collaboration, the data extrac- 

Gdn of classics and multi-source data fusion , organize the data, analyze and define the entity types, attributes of the 

ssic knowledge graph and the entity relationships, types of the classic knowledge graph. | Result/conclusion | It 

Ga realized the construction of the knowledge map of ancient books, including 649 549 kinds of ancient book enti- 

bes , 221 783 persons in charge of ancient books, 1 498 383 versions of ancient books, 13 960 nodes of place names, 

and has formed a three-dimensional, multi-dimensional and multi-purpose knowledge association network of ancient 
Gobks. 


© Keywords: ancient books knowledge organization knowledge graph humanities research digital humanities 
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《知识 管理 论坛 》 首 获 影响 因子 


近日 ,中 国 知 网 CNKI 与 中 国 科 学 文献 计量 评价 研究 中 心 联 合 发 布 了 《中 国学 术 期 刊 影响 因子 年 报 ( 人 文 社 会 

科学 :2020 版 )》,《 知 识 管理 论坛 > 入选 2020 年 4 中国 学术 期 刊 影响 因子 年 报 》 统 计 源 期 刊 。 在 图 书馆 学 情报 学 46 
种 期 刊 中 ,该 刊 复合 影响 因子 JIF 达 0. 954 ,位 列 第 24 名 ;期 刊 综合 影响 因子 JIF 达 0.471 ,位 列 第 31 名 ;人 文 社 科 
影响 因子 JIF 达 0.379 ,位 列 第 31 名 ;影响 力 指数 CI 值 达 65.419 ,位 列 第 33 名 。 这 是 4 知识 管理 论坛 》 首 次 获得 影 
响 因 子 。 
《知识 管理 论坛 》 是 知识 管理 领域 学 术 期 刊 , 跨 学 科 , 纯 网 络 , 开 放 获 取 , 实 行 严格 的 同行 评议 ,并 于 2017 年 通 
国际 知名 开放 获取 平台 DOAJ 的 评估 并 被 其 收录 。 本 次 人选 4 中 国学 术 期 刊 影响 因子 年 报 》 统 计 源 期 刊 标志 着 
《知识 管理 论坛 》 的 学 术 质 量 和 影响 力 得 到 权威 评价 体系 的 认可 ,今后 还 需 继续 努力 ,聚焦 知识 管理 的 热点 和 前 沿 
问题 ,引领 中 国 知识 管理 未 来 发 展 方向 , 架 起 中 国 知 识 管理 理论 研究 和 实践 应 用 的 桥梁 ,并 成 为 学 术 界 和 业界 的 专 
家 \ 作 者 和 读者 的 精神 家 园 。 
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